我们从完全不同的角度解决了不足的α效果问题。给定输入肖像图像,而不是估计相应的alpha哑光,我们专注于另一端,以巧妙地增强此输入,从而可以通过任何现有的均值模型轻松估算α哑光。这是通过探索GAN模型的潜在空间来完成的。可以证明可以在潜在空间中找到可解释的方向,它们对应于语义图像转换。我们在Alpha Matting中进一步探索了此属性。特别是,我们将输入肖像倒入StyleGan的潜在代码中,我们的目的是发现潜在空间中是否有增强版本,该版本与参考垫模型更兼容。我们在四个量身定制的损失下优化了潜在空间中的多尺度潜在媒介,从而确保了肖像画上的底漆特异性和微妙的修改。我们证明了所提出的方法可以为任意床上模型完善真实的肖像图像,从而使自动alpha matting的性能较大。此外,我们还利用了Stylegan的生成性能,并建议生成可以将其视为伪GT的增强的肖像数据。它解决了昂贵的Alpha Matte注释的问题,进一步增强了现有模型的底漆性能。代码可在〜\ url {https://github.com/cnnlstm/stylegan_matting}中获得。
translated by 谷歌翻译
Many real-world problems not only have complicated nonconvex functional constraints but also use a large number of data points. This motivates the design of efficient stochastic methods on finite-sum or expectation constrained problems. In this paper, we design and analyze stochastic inexact augmented Lagrangian methods (Stoc-iALM) to solve problems involving a nonconvex composite (i.e. smooth+nonsmooth) objective and nonconvex smooth functional constraints. We adopt the standard iALM framework and design a subroutine by using the momentum-based variance-reduced proximal stochastic gradient method (PStorm) and a postprocessing step. Under certain regularity conditions (assumed also in existing works), to reach an $\varepsilon$-KKT point in expectation, we establish an oracle complexity result of $O(\varepsilon^{-5})$, which is better than the best-known $O(\varepsilon^{-6})$ result. Numerical experiments on the fairness constrained problem and the Neyman-Pearson classification problem with real data demonstrate that our proposed method outperforms an existing method with the previously best-known complexity result.
translated by 谷歌翻译
Domain generalization (DG) aims to train a model to perform well in unseen domains under different distributions. This paper considers a more realistic yet more challenging scenario,namely Single Domain Generalization (Single-DG), where only a single source domain is available for training. To tackle this challenge, we first try to understand when neural networks fail to generalize? We empirically ascertain a property of a model that correlates strongly with its generalization that we coin as "model sensitivity". Based on our analysis, we propose a novel strategy of Spectral Adversarial Data Augmentation (SADA) to generate augmented images targeted at the highly sensitive frequencies. Models trained with these hard-to-learn samples can effectively suppress the sensitivity in the frequency space, which leads to improved generalization performance. Extensive experiments on multiple public datasets demonstrate the superiority of our approach, which surpasses the state-of-the-art single-DG methods.
translated by 谷歌翻译
在本文中,我们介绍了2022年多模式情感分析挑战(MUSE)的解决方案,其中包括Muse-Humor,Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯(Muse 2022)着重于幽默检测,情绪反应和多模式的情感压力,利用不同的方式和数据集。在我们的工作中,提取了不同种类的多模式特征,包括声学,视觉,文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中,1)提取了一些新的音频功能,面部表达功能和段落级文本嵌入以进行准确的改进。 2)我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3)在模型培训中应用有效的数据增强策略,以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战,我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战,我们在测试集上的Pearson相关系数为0.3879,它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge,我们的方法在测试数据集上的唤醒和价值都优于基线,达到了0.5151的最终综合结果。
translated by 谷歌翻译
细粒度视觉识别的挑战通常在于发现关键的歧视区域。虽然可以从大规模标记的数据集中自动识别此类区域,但是当仅提供少量注释时,类似的方法可能会降低效率。在低数据制度中,网络通常很难选择正确的区域以识别识别,并且倾向于从培训数据中过度拟合虚假的相关模式。为了解决这个问题,本文提出了一种自我提升的注意机制,这是一种新颖的方法,可以使网络正规化关注跨样本和类共享的关键区域。具体而言,提出的方法首先为每个训练图像生成一个注意图,突出显示用于识别地面真实对象类别的判别零件。然后将生成的注意图用作伪通量。该网络被执行以适合它们作为辅助任务。我们将这种方法称为自我增强注意机制(SAM)。我们还通过使用SAM创建多个注意地图来开发一个变体,以泳池卷积图的样式,以双线性合并,称为SAM双线性。通过广泛的实验研究,我们表明两种方法都可以显着提高低数据状态上的细粒度视觉识别性能,并可以纳入现有的网络体系结构中。源代码可公开可用:https://github.com/ganperf/sam
translated by 谷歌翻译
社交机器人被称为社交网络上的自动帐户,这些帐户试图像人类一样行事。尽管图形神经网络(GNNS)已大量应用于社会机器人检测领域,但大量的领域专业知识和先验知识大量参与了最先进的方法,以设计专门的神经网络体系结构,以设计特定的神经网络体系结构。分类任务。但是,在模型设计中涉及超大的节点和网络层,通常会导致过度平滑的问题和缺乏嵌入歧视。在本文中,我们提出了罗斯加斯(Rosgas),这是一种新颖的加强和自我监督的GNN Architecture搜索框架,以适应性地指出了最合适的多跳跃社区和GNN体系结构中的层数。更具体地说,我们将社交机器人检测问题视为以用户为中心的子图嵌入和分类任务。我们利用异构信息网络来通过利用帐户元数据,关系,行为特征和内容功能来展示用户连接。 Rosgas使用多代理的深钢筋学习(RL)机制来导航最佳邻域和网络层的搜索,以分别学习每个目标用户的子图嵌入。开发了一种用于加速RL训练过程的最接近的邻居机制,Rosgas可以借助自我监督的学习来学习更多的判别子图。 5个Twitter数据集的实验表明,Rosgas在准确性,训练效率和稳定性方面优于最先进的方法,并且在处理看不见的样本时具有更好的概括。
translated by 谷歌翻译
以前的多任务密集预测研究开发了复杂的管道,例如在多个阶段进行多模式蒸馏或为每个任务寻找任务关系上下文。这些方法以外的核心洞察力是最大程度地利用每个任务之间的相互作用。受到最近基于查询的变压器的启发,我们提出了一条更简单的管道,称为Multi-Querti-Transformer(MQTRANSFORMER),该管道配备了来自不同任务的多个查询,以促进多个任务之间的推理并简化交叉任务管道。我们没有在不同任务之间建模每个像素上下文的密集上下文,而是寻求特定于任务的代理,以通过每个查询编码与任务相关的上下文进行编码的多个查询执行交叉任务推理。 MQTRANSFORMER由三个关键组件组成:共享编码器,交叉任务注意和共享解码器。我们首先将每个任务与任务相关且具有比例意识的查询对每个任务进行建模,然后将功能提取器的图像功能输出和与任务相关的查询功能都馈入共享编码器,从而从图像功能中编码查询功能。其次,我们设计了一个交叉任务注意模块,以从两个角度来推理多个任务和特征量表之间的依赖项,包括相同尺度的不同任务和同一任务的不同尺度。然后,我们使用共享解码器逐渐使用来自不同任务的合理查询功能来逐步完善图像功能。对两个密集的预测数据集(NYUD-V2和Pascal-Context)的广泛实验结果表明,该方法是一种有效的方法,并实现了最新结果。
translated by 谷歌翻译
作为计算机视觉的基本任务,图像相似性检索正面临大规模数据和图像复制攻击的挑战。本文介绍了由Facebook AI组织的图像相似性挑战(ISC)2021的匹配轨道的第3个解决方案。我们提出了一种组合全局描述符和本地描述符的多分支检索方法来覆盖所有攻击案例。具体而言,我们尝试了许多策略来优化全局描述符,包括丰富的数据增强,具有单个变压器模型的自我监督学习,覆盖检测预处理。此外,我们介绍了稳健的SIFT功能和GPU Faiss,用于局部检索,弥补了全球检索的缺点。最后,knn匹配算法用于判断匹配和合并分数。我们展示了我们的方法的一些消融实验,揭示了全球和局部特征的互补优势。
translated by 谷歌翻译
视听扬声器日复速度旨在检测使用听觉和视觉信号时的``谁说话。现有的视听深度数据集主要专注于会议室或新闻工作室等室内环境,这些工作室与电影,纪录片和观众情景喜剧等许多情景中的野外视频完全不同。要创建一个能够有效地比较野外视频的日复速度方法的测试平台,我们向AVA电影数据集注释说话者深度标签,并创建一个名为AVA-AVD的新基准。由于不同的场景,复杂的声学条件和完全偏离屏幕扬声器,该基准是挑战。然而,如何处理偏离屏幕和屏幕上的扬声器仍然是一个关键挑战。为了克服它,我们提出了一种新的视听关系网络(AVR-Net),它引入了有效的模态掩模,以基于可见性捕获辨别信息。实验表明,我们的方法不仅可以优于最先进的方法,而且可以更加强大,因为改变屏幕扬声器的比率。消融研究证明了拟议的AVR-NET和尤其是日复一化的模态掩模的优点。我们的数据和代码将公开可用。
translated by 谷歌翻译
B型主动脉解剖(TBAD)是最严重的心血管事件之一,其特征在于每年的年龄发病率,以及疾病预后的严重程度。目前,计算机断层摄影血管造影(CTA)已被广泛采用TBAD的诊断和预后。 CTA中真菌(TL),假腔(FL)和假腔血栓(FLT)的精确分割对于解剖学特征的精确定量,CTA是至关重要的。然而,现有的作品仅关注TL和FL而不考虑FLT。在本文中,我们提出了ImageTBAD,TBAD的第一个3D计算断层造影血管造影(CTA)图像数据集具有TL,FL和FLT的注释。该建议的数据集包含100个TBAD CTA图像,与现有的医学成像数据集相比,这是体面的大小。由于FLT几乎可以沿着主动脉出现具有不规则形状的主动脉,FLT的分割呈现了各种各样的分割问题,其中目标存在于具有不规则形状的各种位置。我们进一步提出了一种用于TBAD的自动分割的基线方法。结果表明,基线方法可以通过现有的主动脉和TL分段实现与现有工作的可比结果。然而,FLT的分割精度仅为52%,这使大型改进室并显示了我们数据集的挑战。为了促进进一步研究这一具有挑战性的问题,我们的数据集和代码将发布给公众。
translated by 谷歌翻译